Análise Multivariada

Análise de Componentes Principais

Prof. Washington Santos da Silva

IFMG - Campus Formiga

13 de novembro de 2023

Summário: Aula em 13/11

  • Finalizar os slides sobre Análise de Componentes Principais

  • Estes slides: complemento dos slides da última aula

  • Lab: Análise de Componentes Principais em R

  • Lista de Exercícios 2 - Parte 1

Package: FactoMineR

É um pacote que disponibiliza métodos exploratórios de análise de dados para resumir, visualizar e descrever dados multivariados. Os principais métodos implementados são:

  • Análise de Componentes Principais (PCA) quando as variáveis são quantitativas,

  • Análise de Correspondência (CA) e Análise de Correspondência Múltipla
    (MCA) quando as variáveis são categóricas,

  • Análise de Fatorial

  • Aálise de Clusters: método hierárquico

PCA usando o pacote FactoMineR

fmine_output = FactoMineR::PCA(USArrests,
                               scale.unit = TRUE,
                               ncp = 4,
                               graph = F)
summary(fmine_output)

Call:
FactoMineR::PCA(X = USArrests, scale.unit = TRUE, ncp = 4, graph = F) 


Eigenvalues
                       Dim.1   Dim.2   Dim.3   Dim.4
Variance               2.480   0.990   0.357   0.173
% of var.             62.006  24.744   8.914   4.336
Cumulative % of var.  62.006  86.750  95.664 100.000

Individuals (the 10 first)
                Dist    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3
Alabama     |  1.574 |  0.986  0.783  0.392 | -1.133  2.596  0.518 |  0.444
Alaska      |  3.051 |  1.950  3.067  0.409 | -1.073  2.327  0.124 | -2.040
Arizona     |  2.089 |  1.763  2.507  0.712 |  0.746  1.124  0.127 | -0.055
Arkansas    |  1.149 | -0.141  0.016  0.015 | -1.120  2.534  0.950 | -0.115
California  |  3.037 |  2.524  5.137  0.690 |  1.543  4.811  0.258 | -0.599
Colorado    |  2.114 |  1.515  1.850  0.513 |  0.988  1.971  0.218 | -1.095
Connecticut |  1.860 | -1.359  1.489  0.534 |  1.089  2.396  0.343 |  0.643
Delaware    |  1.184 |  0.048  0.002  0.002 |  0.325  0.214  0.075 |  0.719
Florida     |  3.070 |  3.013  7.321  0.964 | -0.039  0.003  0.000 |  0.577
Georgia     |  2.366 |  1.639  2.167  0.480 | -1.279  3.305  0.292 |  0.342
               ctr   cos2  
Alabama      1.107  0.080 |
Alaska      23.343  0.447 |
Arizona      0.017  0.001 |
Arkansas     0.074  0.010 |
California   2.010  0.039 |
Colorado     6.726  0.268 |
Connecticut  2.321  0.120 |
Delaware     2.897  0.368 |
Florida      1.866  0.035 |
Georgia      0.658  0.021 |

Variables
               Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3    ctr
Murder      |  0.844 28.719  0.712 | -0.416 17.488  0.173 |  0.204 11.644
Assault     |  0.918 34.010  0.844 | -0.187  3.534  0.035 |  0.160  7.190
UrbanPop    |  0.438  7.739  0.192 |  0.868 76.179  0.754 |  0.226 14.290
Rape        |  0.856 29.532  0.732 |  0.166  2.800  0.028 | -0.488 66.876
              cos2  
Murder       0.042 |
Assault      0.026 |
UrbanPop     0.051 |
Rape         0.238 |

Package: factoextra

É um pacote que fornece funções fáceis de usar para extrair e visualizar o resultado de análises de dados multivariadas, incluindo:

  • Análise de Componentes Principais (PCA) quando as variáveis são quantitativas,

  • Análise de Correspondência (CA) e Análise de Correspondência Múltipla
    (MCA) quando as variáveis são categóricas,

  • Análise de Fatorial

  • Aálise de Clusters: método hierárquico

FactoMineR: Scree Plot

factoextra::fviz_screeplot(
  fmine_output,
  choice = "variance",
  addlabels = TRUE,
  ylim = c(0, 100)
)

Mapa das Variáveis

  • O mapa de das variáveis apresenta uma visão da projeção das variáveis observadas no plano abrangendo os dois primeiros componentes principais.

  • Isso nos mostra a relação estrutural entre as variáveis e os componentes, e nos ajuda a “nomear” os componentes.

  • A projeção de um vetor da variável no eixo de um componente nos permite ver diretamente a correlação entre a variável e o componente.

  • A ideia desse gráfico é mostrar com qual direção (componete) as variáveis sào correlacionadas.

  • O eixo que representa Dim 1 e Dim 2 c ontém o coeficiente de correlação de Pearson (\(-1 \leq r \leq +1\)).

factoextra: Mapa das variáveis

factoextra::fviz_pca_var(fmine_output, col.var = "orange")

Mapa dos Indivíduos

  • O mapa dos indivíduos é uma representação gráfica das observações no espaço dos componentes principais

  • Isto é, o mapa dos indivíduos exibe os indivíduos projetados sobre os scores (\(z\)) dos componentes principais.

  • Os indivíduos próximos no mapa compartilham padrões semelhantes nas variáveis originais, e vice-versa.

  • Se houver agrupamentos no mapa, isso sugere que os indivíduos dentro desses grupos são mais semelhantes entre si do que com indivíduos de outros grupos.

factoextra: Mapa dos indivíduos

factoextra::fviz_pca_ind(fmine_output, col.ind = "blue")

factoextra: Mapa dos indivíduos

factoextra::fviz_pca_ind(fmine_output, col.ind = "blue", repel = TRUE)

factoextra: Biplot

factoextra::fviz_pca_biplot(fmine_output, 
                label = "all", 
                col.var = "orange",
                col.ind = "blue",
                repel = TRUE)

Qualidade da Representação de uma Variável

  • Na Análise de Componentes Principais (PCA), as medidas de qualidade da representação de uma variável indicam o quanto uma variável original é bem representada pelos componentes principais.

  • Uma dessas medidas é o cosseno quadrado (\(\cos^2\)) entre o vetor original da variável e o vetor no espaço das componentes principais.

  • Durante a PCA, as variáveis originais são projetadas no espaço das componentes principais. Isso significa que cada variável original é representada como uma combinação linear das demais variáveis.

  • O cosseno quadrado entre o vetor original da variável e seu vetor no espaço das componentes principais é uma medida da qualidade dessa representação.

  • O cosseno quadrado varia de 0 a 1, onde 1 indica uma representação perfeita e 0 indica que a variável original não está representada de forma alguma nps componentes principais.

  • Se o \(\cos^2\) for próximo de 1, isso significa que a variável original contribui fortemente para a variabilidade capturada pelos componentes principais

  • Se o \(\cos^2\) for próximo de 0, a variável original não está bem representada nas componentes principais, e sua contribuição para a variabilidade é mínima.

  • O \(\cos^2\) pode ser usado como critério para selecionar as variáveis mais importantes. Variáveis com \(\cos^2\) elevado são consideradas bem representadas e informativas no espaço dos componentes principais.

factoextra: \(\cos^2\) das variáveis

factoextra::fviz_cos2(fmine_output, choice = "var", axes = 1)

factoextra: \(\cos^2\) das variáveis

factoextra::fviz_cos2(fmine_output, choice = "var", axes = 2)

Mais Informações sobre os Pacotes